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Legislative concerns in data mining 
Abstract 


Data mining involves six common classes of tasks: anomaly detection, association 
rule learning, clustering, classification, regression, and summarization. While the term 
"data mining" itself has no ethical implications, it is often associated with mining 
information about human behavior (ethical and otherwise). Copyright holders are directly 
interested in data mining issues. 
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Rezumat 


Mineritul datelor (data mining) implică şase clase comune de sarcini: detectarea 
anomaliilor, învăţarea regulilor de asociere, clustering, clasificare, regresie, şi sumarizare. 
În timp ce termenul de „mineritul datelor” („data mining”) în sine nu are implicaţii etice, 
el este adesea asociat cu mineritul de informaţii în legătură cu comportamentul oamenilor 
(etic şi de altă natură). Respectarea drepturilor de autor sunt direct interesate de problemele 
legate de mineritul datelor. 

Cuvinte cheie: mineritul datelor, data mining, confidențialitate, etica, drepturi de 


autor, legislaţie 
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Acesta este un articol cu Acces Deschis (Open Access) distribuit în conformitate cu 
termenii licenței de atribuire Creative Commons CC BY-SA 4.0 
(https://creativecommons.org/licenses/by-sa/4.0/ ) 


Introducere 


Mineritul datelor implică șase clase comune de sarcini: (1) 


1. Detectarea anomaliilor (detectarea valorilor anterioare / modificării / abaterii) - 
Identificarea înregistrărilor de date neobişnuite, care ar putea fi interesante sau erori 
de date care necesită investigaţii suplimentare. 

2. Învăţarea regulilor de asociere (modelarea dependenţei) - Caută relaţii între 
variabile. De exemplu, un supermarket ar putea colecta date despre obiceiurile de 
cumpărare ale clienților. Folosind învăţarea regulilor de asociere, supermarketul 
poate determina ce produse sunt cumpărate frecvent împreună și poate utiliza aceste 
informaţii în scopuri de marketing. Aceasta este uneori denumită analiza coșului de 
piață. 

3. Clustering - este sarcina de a descoperi grupuri şi structuri în date care sunt într-un 
fel sau altul „similare”, fără a utiliza structuri cunoscute în date. 

4. Clasificare - este sarcina de a generaliza structura cunoscută pentru a se aplica 
noilor date. De exemplu, un program de e-mail poate încerca să clasifice un e-mail 
ca „legitim” sau ca „spam”. 

5. Regresie - încearcă să găsească o funcţie care modelează datele cu cea mai mică 
eroare. 

6. Sumarizare - oferă o reprezentare mai compactă a setului de date, inclusiv 
vizualizarea și generarea de rapoarte. 


Standarde 


Au existat unele eforturi pentru a defini standarde pentru procesul de minerit a 
datelor, de exemplu Procesul standard european inter-industrial pentru extragerea datelor 
din 1999 (CRISP-DM 1.0) şi standardul Java Data Mining din 2004 (JDM 1.0). 
Dezvoltarea succesorilor acestor procese (CRISP-DM 2.0 şi JDM 2.0) a fost activă în 2006, 
dar a stagnat de atunci. JDM 2.0 a fost retras fără a ajunge la o versiune finală. 

Pentru schimbul de modele de extragere - în special pentru utilizarea în analiza 
predictivă - standardul cheie este Predictive Model Markup Language (PMML), care este 
un limbaj bazat pe XML dezvoltat de Data Mining Group (DMG) şi acceptat ca format de 
schimb de multe aplicații de minerit a datelor. După cum sugerează şi numele, acesta 


acoperă doar modelele de predicţie, o sarcină specială de minerit a datelor de mare 
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importanţă pentru aplicațiile de afaceri. Cu toate acestea, extensii pentru a acoperi (de 


exemplu) gruparea sub-spaţială au fost propuse independent de DMG. 


Mineritul web 


Conform lui (2), mineritul web şi descoperirile tiparelor ascunse în cantitatea mare 
de date găsește informaţii necunoscute, relevante şi utile, conţinute în documentele web (3) 
(4). Tehnicile de minerit pe web sunt inspirate din tehnicile de minerit a datelor. Nu 
utilizează în mod direct tehnicile de minerit a datelor din cauza naturii diverse a datelor web 
care sunt disponibile sub formă de date nestructurate, semistructurate şi structurate. Pentru 
analiza documentelor web, există mai multe sarcini de minerit şi algoritmi în literatură. 
Spre deosebire de depozitarea de date, web are tipuri mixte de date, de ex. date de conţinut 
(text, audio, video şi grafică), date de structură (hyperlinkuri, grafuri web) şi date de 
utilizare (date de jurnal web). Pe baza tipurilor de date utilizate, mineritul web poate fi 
clasificat ca mineritul conţinutului web, mineritul structurii web sau analiza linkurilor şi 
mineritul utilizării web (4). 

Mineritul conținutului web descoperă informațiile utile și relevante din conținutul 
paginii web care ar putea fi text nestructurat, date XML, tabele structurate, informaţii 
grafice, imagini, videoclipuri etc (4). De exemplu, clasificarea documentelor web în funcție 
de conţinutul lor, recenzii despre produse de minerit, sentimentele utilizatorilor în datele 
blogului. 

Mineritul structurii web Se ocupă în mod special de structurile intra și inter 
documente, adică structura de legături a conținutului într-o pagină web și 
interconectivitatea paginii web între site-uri web. Structura paginii web afectează clasarea 
acesteia. Mineritul structurii web poate fi clasificată ca structură de hyperlink şi structură 
de document (5). Structura de linkuri conectează conținutul în locaţii diferite din aceeași 
pagină web sau poate fi utilizată pentru a interconecta diferitele pagini web ale aceluiași 
site sau al unui site web diferit, în timp ce structura documentului organizează conţinutul 
paginii sub forma structurii datorită diferitelor etichete HTML şi XML. 

Mineritul utilizării web descoperă modelele de traversare ale utilizatorului din 
jurnalele web care înregistrează fluxurile de clicuri ale utilizatorului. Mulţi algoritmi de 


minerit a datelor sunt aplicabili și în mineritul utilizării web. Mineritul utilizării web 
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foloseşte mai mulți algoritmi de minerit a datelor. Principala problemă cu mineritul 
utilizărilor web sunt datele neprocesate din fluxul de clic din fişierul jurnal de utilizare a 
web. Mineritul web moşteneşte procesul utilizat în mineritul de date. Ambele diferă în ceea 
ce priveşte tehnicile de culegere de date. Datele din depozitul de date sunt colectate din 
diferite surse eterogene, cum ar fi fişierele plate ale bazelor de date. Acest proces implică 
curățarea, integrarea şi transformarea datelor. Datele pentru minerit din depozitul de date 
sunt deja colectate, în timp ce pentru mineritul web sarcina de colectare a datelor este 
plictisitoare, dar cumva crawlerele web sunt utile în această activitate. După ce colectarea 
datelor este finalizată, aceasta necesită preprocesare, integrare, transformare şi selectare a 


datelor necesare pentru mineritul web. In cele din urmă, se face generalizarea și analiza. 


Subsarcini ale mineritului web 


Mineritul web include patru sarcini secundare: 


1. Colectarea resurselor: această fază preia documentele dorite şi este realizată de 
motoarele de căutare web sau crawlerele web (6). 

2. Selectarea/preprocesarea informaţiilor: după găsirea resursei, documentele web 
relevante sunt selectate și transformate în formă standard. Majoritatea metodelor au 
folosit lucrări pentru a selecta datele şi reprezintă datele în formă tabelară (7). 

3. Generalizare: încearcă să afle modelul general de acces al utilizatorilor în cadrul şi 
între site-uri web. Aceasta determină interesul şi comportamentul utilizatorului. 
Sunt utilizate tehnicile de minerit web, cum ar fi clasificarea, tehnicile de reguli de 
asociere în cluster etc. 

4. Analiză/validare: acest pas analizează, interpretează şi validează informaţiile 
potențiale în raport cu modelele de informaţii. Scopul acestei sarcini este mineritul 
cunoştinţelor din informaţiile obținute prin paşii anteriori. Există mai multe modele 
pentru a simula şi valida datele web pentru minerit. 


Mineritul web moşteneşte tehnicile de minerit de date pentru a extrage automat 
informațiile pentru a obţine cunoştinţe din conţinutul web. Evaluarea modelelor implică 


generalizare, clasificare în cluster şi analiză. 


Preocupări privind confidenţialitatea şi etica 


Conform lui (1), în timp ce termenul „mineritul datelor” („data mining”) în sine nu 
are implicaţii etice, el este adesea asociat cu mineritul de informaţii în legătură cu 


comportamentul oamenilor (etic şi de altă natură). 
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Modalitățile în care extragerea datelor poate fi utilizată, în unele cazuri şi 
contextele, pot ridica întrebări cu privire la confidenţialitate, legalitate şi etică. În special, 
seturile de date guvernamentale sau comerciale de extragere a datelor în scopuri de 
securitate naţională sau de aplicare a legii, cum ar fi Programul de conştientizare totală a 


informațiilor sau în ADVISE, au ridicat probleme legate de confidențialitate. 


Mineritul datelor necesită pregătirea datelor care pot descoperi informaţii sau 
modele care pot compromite confidențialitatea și obligaţiile de confidenţialitate. O 
modalitate obişnuită de a se produce acest lucru este prin agregarea datelor. Agregarea 
datelor implică combinarea datelor împreună (posibil din diverse surse) într-un mod care 
să faciliteze analiza (dar care ar putea, de asemenea, să facă identificarea datelor private, 
la nivel individual, deductibilă sau evidentă). Acesta nu este data mining în sine, ci un 
rezultat al pregătirii datelor înainte de - și în scopul - analizei. Amenințarea la adresa 
confidențialității unei persoane intră în joc atunci când datele, odată compilate, determină 
minerul de date sau ca oricine care are acces la setul de date nou compilat să poată 


identifica anumite persoane, mai ales când datele au fost inițial anonime. 


Se recomandă ca o persoană să fie informată despre următoarele înainte de 


colectarea datelor: 


scopul colectării datelor şi al oricăror proiecte (cunoscute) de minerit a datelor; 
cum vor fi utilizate datele; 

cine va putea să extragă datele şi să utilizeze datele şi derivatele acestora; 

starea securității în jurul accesului la date; 

cum pot fi actualizate datele colectate. 

De asemenea, datele pot fi modificate pentru a deveni anonime, astfel încât 


persoanele fizice să nu fie ușor identificate. Cu toate acestea, chiar şi seturile de date „de- 
identificate”/"anonimizate” pot conține suficiente informaţii pentru a permite identificarea 
persoanelor, aşa cum s-a întâmplat atunci când jurnaliştii au reuşit să găsească mai multe 
persoane pe baza istoriei unui set de căutare care au fost lansate din greșeală de AOL. 
Dezvăluirea din neatenţie a informaţiilor de identificare personală care conduc la 
furnizor încalcă Practicile corecte de informare. Această indiscreţie poate provoca vătămări 
financiare, emoţionale sau corporale persoanei indicate. Într-un caz de încălcare a 


confidențialităţii, patronii Walgreens au intentat un proces împotriva companiei în 2011 
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pentru vânzarea de informaţii pe bază de reţetă companiilor de minerit a datelor care, la 


rândul lor, au furnizat datele companiilor farmaceutice. 


Europa 


Europa are legi destul de puternice privind confidențialitatea şi se depun eforturi 
pentru a consolida în continuare drepturile consumatorilor. Cu toate acestea, Principiile 
Safe Harbor U.S.-E.U. expun în prezent efectiv utilizatorii europeni la exploatarea 
confidențialității de către companiile din SUA. Ca o consecință a dezvăluirii privind 
supravegherea globală a lui Edward Snowden, au existat mai multe discuţii pentru 
revocarea acestui acord, deoarece, în special, datele vor fi expuse pe deplin Agenţiei 


Naţionale de Securitate, iar încercările de a ajunge la un acord au eşuat. 


Statele Unite 


În Statele Unite, problemele legate de confidenţialitate au fost abordate de 
Congresul SUA prin adoptarea unor controale de reglementare, cum ar fi Legea privind 
portabilitatea şi responsabilitatea asigurărilor de sănătate (HIPAA). HIPAA cere 
persoanelor să-şi dea „consimțământul informat” cu privire la informațiile pe care le 
furnizează şi la utilizările prezente şi viitoare ale acestora. Potrivit unui articol din Biotech 
Business Week, „|în practică], HIPAA nu poate oferi o protecție mai mare decât 
reglementările îndelungate din domeniul cercetării”, spune AAHC. Mai important, scopul 
regulii de protecţie prin consimțământul informat este subminat de complexitatea formelor 
de consimțământ care sunt solicitate pacienților şi participanţilor, care se apropie de un 
nivel de incomprehensibilitate ridicat pentru indivizii medii.” Acest lucru subliniază 
necesitatea anonimatului datelor în practicile de agregare şi extragere a datelor. 

Legislaţia S.U.A. privind confidențialitatea informațiilor, cum ar fi HIPAA şi 
Family Educational Rights and Privacy Act (FERPA) se aplică numai domeniilor specifice 
pe care le abordează fiecare astfel de lege. Utilizarea mineritului de date de către 


majoritatea companiilor din S.U.A. nu este controlată de nicio legislație. 
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Legea drepturilor de autor 
Europa 


Din cauza lipsei de flexibilitate în legislația europeană a drepturilor de autor și a 
bazelor de date, mineritul datelor cu drepturi de autor, cum ar fi mineritul web, fără 
permisiunea proprietarului drepturilor de autor, nu este legală. Acolo unde o bază de date 
reprezintă date pure în Europa, probabil că nu există drepturi de autor, dar pot exista 
drepturi de bază de date, astfel încât exploatarea datelor devine supusă reglementărilor din 
Directiva privind bazele de date. La recomandarea evaluării Hargreaves, acest lucru a 
determinat guvernul Regatului Unit să își modifice legea drepturilor de autor în 2014 pentru 
a permite exploatarea conţinutului ca limitare şi excepţie. A doua ţară din lume care face 
acest lucru după Japonia, care a introdus o excepţie în 2009 pentru mineritul de date. Cu 
toate acestea, din cauza restricțiilor directivei privind drepturile de autor, excepția din 
Regatul Unit permite extragerea de conținut numai în scopuri necomerciale. Legea 
drepturilor de autor din Regatul Unit nu permite, de asemenea, ca această prevedere să fie 
înlocuită de termenii şi condiţiile contractuale. Comisia Europeană a facilitat discuțiile cu 
părțile interesate cu privire la mineritul de text și date în 2013, sub titlul Licenţe pentru 
Europa. Accentul pus pe soluţia la această problemă legală fiind licenţele şi nu limitările şi 
excepţiile, a determinat reprezentanţii universităţilor, cercetătorilor, bibliotecilor, 
grupurilor societăţii civile şi editorilor cu acces deschis să părăsească dialogul cu părțile 


interesate în mai 2013. 


Statele Unite 


Spre deosebire de Europa, natura flexibilă a legii americane privind drepturile de 
autor Și, în special, utilizarea loială, permite extragerea de conţinut în America, precum și 
în alte țări cu utilizare loială, cum ar fi Israel, Taiwan şi Coreea de Sud, fiind considerată 
legală. Întrucât extragerea de conţinut este transformatoare, adică nu înlocuieşte opera 
originală, este considerată legală în condiţiile utilizării loiale. De exemplu, ca parte a 
soluționării Google Book, judecătorul preşedinte al cazului a hotărât că proiectul Google 
de digitalizare a cărților cu drepturi de autor era legal, în parte din cauza utilizărilor 
transformatoare pe care le-a afișat proiectul de digitizare - una fiind extragerea de text și 


date. 
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